<?xml version="1.0" encoding="ISO-8859-1"?>
<metadatalist>
	<metadata ReferenceType="Audiovisual Material">
		<site>mtc-m16c.sid.inpe.br 804</site>
		<identifier>8JMKD3MGPDW34P/43HC39E</identifier>
		<repository>sid.inpe.br/mtc-m16c/2020/11.05.16.41</repository>
		<lastupdate>2020:11.05.16.41.12 sid.inpe.br/mtc-m18@80/2008/03.17.15.17 simone</lastupdate>
		<metadatarepository>sid.inpe.br/mtc-m16c/2020/11.05.16.41.12</metadatarepository>
		<metadatalastupdate>2021:09.16.19.16.55 sid.inpe.br/mtc-m18@80/2008/03.17.15.17 simone {D 2020}</metadatalastupdate>
		<citationkey>SilvaJúnior:2020:AbInCi</citationkey>
		<title>O KNN e o desafio do Titatnic: uma abordagem introdutória da ciência de dados</title>
		<format>On-line.</format>
		<year>2020</year>
		<secondarytype>PRE CN</secondarytype>
		<numberoffiles>1</numberoffiles>
		<size>23906 KiB</size>
		<author>Silva Júnior, Antonio Carlos da,</author>
		<affiliation>Universidade Federal do Paraná (UFPR)</affiliation>
		<electronicmailaddress>juniorssz@gmail.com</electronicmailaddress>
		<conferencename>Workshop dos Cursos de Computação Aplicada do INPE, 20 (WORCAP)</conferencename>
		<conferencelocation>São José dos Campos</conferencelocation>
		<date>8-11 e 14-17 set. 2020</date>
		<publisher>Instituto Nacional de Pesquisas Espaciais (INPE)</publisher>
		<publisheraddress>São José dos Campos</publisheraddress>
		<booktitle>Vídeos</booktitle>
		<tertiarytype>palestra</tertiarytype>
		<transferableflag>1</transferableflag>
		<abstract>A ciência de dados é uma área de estudo multidisciplinar que tem se tornado cada vez mais popular entre as empresas de todo o planeta. Esta área tem como principal objetivo a extração de informações relevantes à partir de dados brutos, visando o melhor apoio à tomada de decisão. Esta ciência lida com técnicas estudadas há décadas, que vem ganhando destaque nos últimos anos em virtude do aumento da capacidade computacional para o processamento de um grande volume de dados que tem praticamente dobrado a cada ano. Estes dados são obtidos a partir de diversas fontes, como bancos de dados transacionais, redes sociais e dispositivos IOT, por exemplo. Contudo, eles necessitam de alguma intervenção profissional para a detecção e a eliminação de inconsistências, de modo a possibilitar as melhores e mais confiáveis análises. Dada a popularidade da ciência de dados entre as empresas e a dificuldade de se formar um profissional com boa capacitação nos pilares da ciência da computação, estatística / matemática e conhecimento de negócio, a demanda pelo cientista de dados no mercado de trabalho tem aumentado cada vez mais e, em consequência, o interesse pelo ingresso nesta nova profissão tem sido cada vez maior. O desafio do Titanic, promovido pela Kaggle que é uma plataforma que hospeda competições de ciência de dados, normalmente é a porta de entrada dos aspirantes a cientista de dados para o mundo da modelagem preditiva. No entanto, a falta dos recursos adequados para lidar com a etapa de preparação dos dados acaba comprometendo o sucesso da análise. Portanto, a proposta deste trabalho é uma abordagem por meio do conjunto de dados do desafio do Titanic, ao qual será demonstrada a etapa de tratamento e preparação dos dados com a utilização da linguagem de alto nível R apoiada pelo algoritmo KNN para a imputação de dados ausentes. Com a aplicação destas técnicas, além da obtenção de um conjunto de dados lapidado para aplicação da análise preditiva requerida pelo desafio, pode-se constatar que a abordagem é viável e plausível para ser aplicada em situações do mundo real, uma vez que os dados obtidos pelas empresas, mesmo em contexto e dimensões diferentes, muitas vezes são apresentados de forma semelhante. Este estudo tem o propósito de mostrar de maneira lúdica a importância de uma boa análise exploratória e do tratamento dos dados levantados, podendo assim auxiliar a Academia em estudos futuros, bem como orientar e incentivar os novos profissionais.</abstract>
		<area>COMP</area>
		<type>tecnologia da informação</type>
		<language>pt</language>
		<targetfile>KNN e desafio do Titanic_ Abordagem introdutória da ciência de dados - Antonio C. da Silva Jr.mp4</targetfile>
		<usergroup>simone</usergroup>
		<visibility>shown</visibility>
		<copyright>urlib.net/www/2012/11.12.15.03</copyright>
		<readpermission>allow from all</readpermission>
		<documentstage>not transferred</documentstage>
		<mirrorrepository>iconet.com.br/banon/2005/09.28.12.40</mirrorrepository>
		<nexthigherunit>8JMKD3MGP8W/38ELNHL</nexthigherunit>
		<nexthigherunit>8JMKD3MGPDW34P/43LA7CL</nexthigherunit>
		<hostcollection>sid.inpe.br/mtc-m18@80/2008/03.17.15.17</hostcollection>
		<notes>(15 min)</notes>
		<username>simone</username>
		<url>http://mtc-m16c.sid.inpe.br/rep-/sid.inpe.br/mtc-m16c/2020/11.05.16.41</url>
	</metadata>
</metadatalist>